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Abstract 



Mobiltelefone und Computer werden zunehmend mit einer Kamera ausgestattet. Dies 
ermoeglicht es, statt blosser Texteingaben auch Bilder an Suchmaschinen oder 
Datenbanken als Eingabe zu senden. Fortschritte bei Bilderkennungsverfahren wiederum 
ermoeglichen zunehmend das automatische Erkennen von Objekten, Buchstabenfolgen 
oder Symbolen in digitalen Bildern. Dies erlaubt es, die Bildinformation in ein 
symbolisches Format, z. B. Klartext umzuwandeln, urn damit Informationen zu dem 
gezeigten Objekt abzurufen. 
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Beschreibung 

Ein Mensch sieht einen Gegenstand und sofort stellt sein Gedaechtnis Informationen 
bereit, die mit dem Gegenstand in Zusammenhang stehen. Extrem nuetzliche waere ein 
System, dass diese Leistung nachbildet oder sogar erweitert. 

Moderne Verfahren der Bilderkennung erlauben es zunehmend besser Objekte, 
Landschaften, Gesichter, Symbole, Buchstabenfolgen, etc. in Bildern zu erkennen. Mehr 
und mehr Kameras sind an Geraete angeschlossen, die an Datenfernuebertragungs- 
netzwerke angebunden sind. Solch eine Konfiguration unterstuetzt die folgende 
Anwendung. Mit der Kamera in einem Endgeraet (1), z. B. in einen Mobiltelefon wird 
ein Bild oder eine kurze Bildsequenz aufgenommen. Dieses Bild (2) oder diese Bilder 
werden dann per Datenfernuebertragung (3) an einen Serverrechner (7) geschickt. Dort 
laeuft ein Bilderkennungsverfahren (4), das die Bildinformation in symbolische 
Information (5), z. B. Klartext umwandelt. Z.B. erkennt das Bilderkennungsverfahren, 
dass auf dem Bild der Eifelturm zu erkennen ist. Alles weitere funktioniert nun aehnlich 
wie bei einer traditionellen Suchmaschine (6) im Internet. Der Serverrechner schickt dem 
Nutzer eine Liste zurueck mit "Links" auf Datenbankeintraege oder Webseiten, die 
Informationen ueber das gezeigte Objekt (8) enthalten. 
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1. Bilderkennung 



Dieser Abschnitt gibt einen groben Ueberblick ueber eine moegliche Methode zur 
Objekterkennung. Eine genauere Beschreibung zu Verfahren fuer die Objecterkennung 
ist in den folgenden Publikation beschrieben: J. Buhmann, M. Lades and C. 
v.d.Malsburg, "Size and Distortion Invariant Object Recognition by Hierarchical Graph 
Matching," in Proceedings of the IJCNN International Joint Conference on Neural 
Networks, San Diego 1990, pp. 11-411-416 und "High-Level Vision : Object Recognition 
and Visual Cognition", Shimon Ullman, MIT Press; ISBN: 0262710072; July 31, 2000, 
Verfahren zur automatischen Schriftzeichenerkennung sind beschrieben in: "Optical 
Character Recognition: An Illustrated Guide to the Frontier" Kluwer International Series 
in Engineering and Computer Science, 502, by Stephen V. Rice, George Nagy, Thomas 
A.Nartker, 1999. 



1.1. Aufbau einer Objektrepraesentation 

Die meisten Objekterkennungsverfahren die heute verwendet werden, benutzen eine 
Anzahl von Beispielbildern (21) urn dem Objekt angepasste Merkmalsdetektoren (22) zu 
trainieren. Dabei 

1.2. Erkennung 

Bei der Erkennung werden die trainierten Merkmalsdetektoren (32) verwendet urn die 
von ihnen repraesentierten Merkmale in einem Eingabebild (31) aufzufmden. Dieses 
geschieht durch einen Suchprozess. Jeder Merkmalsdetektor gibt einen Konfidenzwert 
aus, der angibt, wie gut er das von ihm repraesentierte Merkmal in dem Bild erkennt. 
Wenn die akkumulierten Konfidenzwerte (33) aller Merkmalsdetektoren einen 
vorgegebenen Schwellenwert ueberschreiten nimmt man an, dass das Objekt erkannt 
wurde. 

2. Anwendungsbepiele 

Natuerlich ist die automatische Bilderkennung noch weit davon entfemt die Leistungen 
des menschlichen Sehsystems zu erreichen. Daher wird man sich zunaechst auf 
Situationen beschraenken, die von existierenden Bildverarbeitungsystemen gut behandelt 
werden koennen. Im folgenden beschreibe ich eine Reihe von Anwendungsfeldern und 
beschreibe ihre spezifischen Schwierigkeiten. 

Stadt- und Museumsfuehrer 

Visuell Gebaeude zu erkennen ist mit heutigen Methoden gut realisierbar. Es hilfl 
natuerlich wenn der Nutzer das Gebaeude frontal und senkrecht fotografiert und nicht aus 
einem schraegen Winkel. Des weiteren kann man die Bilderkennung unterstuetzen in 
dem man Positionsinformationen mitverwendet. Viele Telefone werden mit GPS (Global 
Positioning System) ausgestattet, so dass man jederzeit bis auf wenige Meter weiss, wo 
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sich das Telefon befindet. Diese Information kann man nutzen um bei der 
Bildverarbeitung nur solche Gebaeude oder Gebaeudedetails in Betracht zu ziehen, die in 
Naehe sind. Da das Gebaeude zu verschiedenen Tageszeiten erkennbar sein soil, muss 
man beim Aufbauen der visuellen Repraesentation darauf achten, das entsprechendes 
Bildmaterial mit aufgenommen werden muss. Fuer die meisten Bilderkennungsverfahren 
bedeutet das, das man einfach mehrere Bilder unter verschieden Beleuchtungssitutionen 
aufhimmt und diese bei der Modellkonstruktion verwendet. 

Sehr einfach waere es auch, einen universellen Kunstfuehrer zu bauen, der einem 
Informationen, z. B. zu einen Gemaelde gibt. Da Bilder zweidimensional sind ist die 
Erkennung wesentlich vereinfacht. 

Produktinformationen 

Ein andere Kategorie von Objekten sind Produkte wie Autos, Buecher oder Spielzeuge. 
Sieht der Nutzer ein Automodell das ihn interessiert, kann er einfach ein davon Bild 
aufhehmen und er wird z. B. zu einer entsprechenden Webseite mit weiteren 
Produktinformationen geleitet. Wiederum wird es in den fruehen Phasen eines solchen 
Services nuetzlich sein, wenn der Nutzer Fotos von exakten Frontal- oder Seitenansichten 
aufhimmt und zum Serverrechner schickt. In spaeteren Versionen, wenn die 
Poseninvarianz verbessert worden ist, braucht sich der Nutzer weniger einzuschraenken. 
Es ist wichtig, den bildbasierten Suchservice so zu gestalten, das es aehnlich wie beim 
jetzigen World Wide Web jedem Anbieter von Informationen ermoeglicht wird fuer 
seine Webseite eine bildbasierte Suchfunktion anzubieten. Auf diese Weise kann leicht 
sichergestellt werden, dass fuer viele Produkte eine bildbasierte Suchfunktion zur 
Verfuegung steht, da z.B. Autohersteller ein grosses Interesse daran haben werden, das 
ihre neuesten Modelle per Bildaufhahme erkannt werden koennen. 

Texterkennung 

Ein weiterer nuetzlicher Service besteht darin, das man Texterkennung abietet. Fuer den 
Reisenden nach Tokyo oder Paris, der der Landessprache nicht maechtig ist, waere es 
von grossem Wert, wenn er seine Kamera auf ein Schild richten kann und er dann eine 
Uebersetzung und weitere Informationen zu dem erkennen Text erhaelt. Steht man 
beispielsweise in Tokyo vor ein Sushibar waere es doch von grossem Wert, wenn man 
sofort und muehelos den entspechenden Eintrag in einem Restaurantfuehrer lesen 
koennte. Gerade flier Besucher, die japanische Schriftzeichen nicht lessen koennen, ist 
dies eine sehr bequeme Loesung um an weitere Informationen zu koemmen. 

Gesichtserkennung 

Gesichtserkennung ist ein weiterer Spezialfall Menschen, die aus irgendwelchen 
Gruenden moechten, dass man schnell mehr ueber sie erfahren kann, koennen 
Aufhahmen von ihrem Gesicht verfuegbar machen, die dann von der Bilderkennung 
genutzt werden koennen. 
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Das vollausgebaute System 



Die Zahl der Anwendunsgbereiche liesse sich noch lange fortsetzen. Kataloge fuer 
Antiquitaeten, Planzen- and Tierbestimmungsbuecher koennen mit dem beschriebenen 
System wesentlich effizienter gestaltet werden. Oder man stelle sich einen Teil einer 
Apparatur vor, fuer das man Ersatz oder weitere Erklaerungen braucht. Man nimmt 
einfach ein Bild auf und schnell wird man auf Kennung und Hersteller oder einen 
entspechenden Abschnitt in einem Handbuch verwiesen. Ein System, das einem 
Zusatzinformationen zu Reklametafeln gibt, ist eine weitere Anwendung. In jedem dieser 
Faelle nimmt der Nutzer einfach ein Bild des Gegenstandes von Interesse auf und schickt 
es zum Rechner auf dem die Bilderkennung laeuft Die Bilderkennung sendet 
enstpechende symbolische Information, die das Objekt beschreibt an die Suchmaschine, 
die letztlich die Information, die zum Nutzer geschickt wird, auswaehlt. 

In der vollen Ausbaustufe hat man ein System, das man mit einem externen visuellen 
Gedaechtnis vergleichen koennte. Jeder Gegenstand, jeder Text, jedes Symbol, jedes 
Gesicht, letztlich eine grosse Anzahl von Ansichten der Erdoberflaeche ist in dem System 
gespeichert und wird kontinuierlich durch die Nutzer auf dem neuesten Stand gehalten. 
Letzlich hat man ein globales System, das unser Wissen ueber die Dinge auf unserem 
Planeten speichert und jederzeit zur Verfuegung stellt. 
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Zeichnungen 



Abbildung 1 
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Abbildung 2 



Trainingsbilder (21) 




Merkmalsdetektor 1 



Merkmalsdetektor N 



Merkmalsdetektoren (22) 



Abildung 3 




Merkmalsdetektor 1 




Konfidenzwert 1 




Merkmalsdetektor N 




KonfidenzwertN^ 



Eingabebild (3 1 ) Merkmalsdetektoren (32) Konfidenzwerte (33) 
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Ansprueche 



1) Ein System zur bildbasierten Anfrage an Suchmaschinen oder Datenbanken, 
gekennzeichnet durch a) Ein Endgeraet mit eingebauter Kamera, welches an ein 
Datenfemuebertragungsnetz angeschlossen ist b) Ein Serverrechner, auf dem ein 
Programm zur Objekterkennung laeuft, welches eingesandte Bilder analysiert und 
mit einer symbolischen Indizierung versieht c) Eine Suchmaschine, welche die 
Bildindizes nutzt um Informationen zu dem Bild zu finden und zu dem Endgeraet 
zurueckzuschicken. 

2) Ein System, wie beschrieben unter 1), das fuer Mobiltelefone oder mobile 
Computer ausgelegt ist, die eine eingebaute Kamera haben. 

3) Ein Stadt- oder Musuemsfuehrer, der das unter 2) beschriebene System verwendet 
um einem Nutzer Informationen zu geben zu Objekten, von denen er zuvor ein 
Bild aufgenommen hat. 

4) Ein System wie unter 3) bei dem zusaetzlich Positionsinformation verwendet wird 
um die Bilderkennung geeignet einzuschraenken. 

5) Ein System wie unter 2), das Produktinformationen bereitstellt zu Produkten die 
zuvor mit der mobilen Kamera fotografiert wurden. 

6) Ein System wie unter 2), bei der die Objekterkennung auch in der Lage ist 
Textzeichen oder Symbole zu erkennen. 

7) Ein System wie unter 2), bei der das System insbesondere in der Lage ist, 
Gesichter zu erkennen. 

8) Ein System, wie unter 2), das genutzt wird, dem Nutzer zusaetzliche Information 
zu Reklametafeln zu geben. 

9) Ein elektronisches Bedienungshandbuch, welches ein System wie unter 2) 
benutzt um schnell Zugang zu entsprechenden Abschnitten im Handbuch zu 
navigieren. 

10) Ein System, wie unter 2), das es den Anbietern von Informationen ermoeglicht, 
selbststaendig neue Eintraege in das Bildverarbeitungssystem vorzunehmen, um 
so die Abfrage ihrer Daten per Bildeingabe zu ermoeglichen. 
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